在這篇中,我們將會提到與以往MDP不一樣的地方,以及cooking_gym額外的一些設定
MMDP跟過去MDP的差別在於有多個智能體參與決策過程,分別對於<n, S, A1-An, T, R, γ, T>做講解:
在這個環境裡面,agent 都可以上下左右自由移動,同時每個物件都有各自己的物件導向屬性,例如蕃茄的status=被切開,我們可以根據跟環境的互動,改變其狀態與位置,但是如果遇到 agent 剛好將移動的方向都有障礙物或人卡住,agent 則會停留在原地,晚點的章節也會提到這種,卡住的 shuffle 的問題。
Too many cooks: Bayesian inference for coordinating
multi-agent collaboration